Análise Multivariada
Análise de Cluster
Dados
Os dados se referem a uma análise química de vinhos. São 178 amostras de diferentes vinhos italianos de 3 tipos de uvas usadas na fabricação dos vinhos, tal como Sauvignon Blanc, Cabernet ou Chardonnay. Foram analisadas 13 variáveis (V2 a V14), contendo as concentrações de diferentes compostos químicos na amostra.
As variáveis observadas para cada vinho são:
V2. Álcool, que é criado como um resultado direto do processo de
fermentação e é também um indicador do conteúdo de álcool das
uvas.
V3. Ácido málico, que é um acido primário em uvas, que podem influenciar
o gosto dos vinhos.
V4. Teor de cinzas, que são um indicador de qualidade.
V5. Alcalinidade da cinza, uma propriedade química das cinzas.
V6. Magnésio, um mineral.
V7. Fenóis totais, uma classe de moléculas importantes para definir o
sabor, cheiro, benefícios medicinais e diversidade do vinho. Os tipos de
fenóis são classificados como flavonóides e não flavonoides.
V8. Flavonóides, um tipo de fenol no vinho tinto que possui um maior
impacto no sabor do vinho.
V9. Fenóis não flavonóides, outro tipo de fenol.
V10. Proantocianinas, tipo de flavonóide das semestes das uvas.
V11. Intensidade da cor.
V12. Tonalidade do vinho.
V13. OD280/OD315 de vinhos diluídos
V14. Teor de prolina, que é alterada pela variedade de uvas.
Análise exploratória
Pelo boxplot dos dados é possível perceber que as variáveis possuem escalas bem diferentes.
Já o boxplots com os dados padronizados é possível perceber que o problema de escala foi corrigido.
| V2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| Min. :11.03 | Min. :0.740 | Min. :1.360 | Min. :10.60 | Min. : 70.00 | Min. :0.980 | Min. :0.340 | Min. :0.1300 | Min. :0.410 | Min. : 1.280 | Min. :0.4800 | Min. :1.270 | Min. : 278.0 | |
| 1st Qu.:12.36 | 1st Qu.:1.603 | 1st Qu.:2.210 | 1st Qu.:17.20 | 1st Qu.: 88.00 | 1st Qu.:1.742 | 1st Qu.:1.205 | 1st Qu.:0.2700 | 1st Qu.:1.250 | 1st Qu.: 3.220 | 1st Qu.:0.7825 | 1st Qu.:1.938 | 1st Qu.: 500.5 | |
| Median :13.05 | Median :1.865 | Median :2.360 | Median :19.50 | Median : 98.00 | Median :2.355 | Median :2.135 | Median :0.3400 | Median :1.555 | Median : 4.690 | Median :0.9650 | Median :2.780 | Median : 673.5 | |
| Mean :13.00 | Mean :2.336 | Mean :2.367 | Mean :19.49 | Mean : 99.74 | Mean :2.295 | Mean :2.029 | Mean :0.3619 | Mean :1.591 | Mean : 5.058 | Mean :0.9574 | Mean :2.612 | Mean : 746.9 | |
| 3rd Qu.:13.68 | 3rd Qu.:3.083 | 3rd Qu.:2.558 | 3rd Qu.:21.50 | 3rd Qu.:107.00 | 3rd Qu.:2.800 | 3rd Qu.:2.875 | 3rd Qu.:0.4375 | 3rd Qu.:1.950 | 3rd Qu.: 6.200 | 3rd Qu.:1.1200 | 3rd Qu.:3.170 | 3rd Qu.: 985.0 | |
| Max. :14.83 | Max. :5.800 | Max. :3.230 | Max. :30.00 | Max. :162.00 | Max. :3.880 | Max. :5.080 | Max. :0.6600 | Max. :3.580 | Max. :13.000 | Max. :1.7100 | Max. :4.000 | Max. :1680.0 |
Pelo summary dos dados é possível perceber a diferença
numérica das escalas entre as variáveis.
| V2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| V2 | 0.66 | 0.09 | 0.05 | -0.84 | 3.14 | 0.15 | 0.19 | -0.02 | 0.06 | 1.03 | -0.01 | 0.04 | 164.57 |
| V3 | 0.09 | 1.25 | 0.05 | 1.08 | -0.87 | -0.23 | -0.46 | 0.04 | -0.14 | 0.64 | -0.14 | -0.29 | -67.55 |
| V4 | 0.05 | 0.05 | 0.08 | 0.41 | 1.12 | 0.02 | 0.03 | 0.01 | 0.00 | 0.16 | 0.00 | 0.00 | 19.32 |
| V5 | -0.84 | 1.08 | 0.41 | 11.15 | -3.97 | -0.67 | -1.17 | 0.15 | -0.38 | 0.15 | -0.21 | -0.66 | -463.36 |
| V6 | 3.14 | -0.87 | 1.12 | -3.97 | 203.99 | 1.92 | 2.79 | -0.46 | 1.93 | 6.62 | 0.18 | 0.67 | 1769.16 |
| V7 | 0.15 | -0.23 | 0.02 | -0.67 | 1.92 | 0.39 | 0.54 | -0.04 | 0.22 | -0.08 | 0.06 | 0.31 | 98.17 |
| V8 | 0.19 | -0.46 | 0.03 | -1.17 | 2.79 | 0.54 | 1.00 | -0.07 | 0.37 | -0.40 | 0.12 | 0.56 | 155.45 |
| V9 | -0.02 | 0.04 | 0.01 | 0.15 | -0.46 | -0.04 | -0.07 | 0.02 | -0.03 | 0.04 | -0.01 | -0.04 | -12.20 |
| V10 | 0.06 | -0.14 | 0.00 | -0.38 | 1.93 | 0.22 | 0.37 | -0.03 | 0.33 | -0.03 | 0.04 | 0.21 | 59.55 |
| V11 | 1.03 | 0.64 | 0.16 | 0.15 | 6.62 | -0.08 | -0.40 | 0.04 | -0.03 | 5.37 | -0.28 | -0.71 | 230.77 |
| V12 | -0.01 | -0.14 | 0.00 | -0.21 | 0.18 | 0.06 | 0.12 | -0.01 | 0.04 | -0.28 | 0.05 | 0.09 | 17.00 |
| V13 | 0.04 | -0.29 | 0.00 | -0.66 | 0.67 | 0.31 | 0.56 | -0.04 | 0.21 | -0.71 | 0.09 | 0.50 | 69.93 |
| V14 | 164.57 | -67.55 | 19.32 | -463.36 | 1769.16 | 98.17 | 155.45 | -12.20 | 59.55 | 230.77 | 17.00 | 69.93 | 99166.72 |
Na matriz de covariância é possível ver o impacto que tem as variáveis com maior escala na diagonal principal (variância).
| V2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| V2 | 1.00 | 0.09 | 0.21 | -0.31 | 0.27 | 0.29 | 0.24 | -0.16 | 0.14 | 0.55 | -0.07 | 0.07 | 0.64 |
| V3 | 0.09 | 1.00 | 0.16 | 0.29 | -0.05 | -0.34 | -0.41 | 0.29 | -0.22 | 0.25 | -0.56 | -0.37 | -0.19 |
| V4 | 0.21 | 0.16 | 1.00 | 0.44 | 0.29 | 0.13 | 0.12 | 0.19 | 0.01 | 0.26 | -0.07 | 0.00 | 0.22 |
| V5 | -0.31 | 0.29 | 0.44 | 1.00 | -0.08 | -0.32 | -0.35 | 0.36 | -0.20 | 0.02 | -0.27 | -0.28 | -0.44 |
| V6 | 0.27 | -0.05 | 0.29 | -0.08 | 1.00 | 0.21 | 0.20 | -0.26 | 0.24 | 0.20 | 0.06 | 0.07 | 0.39 |
| V7 | 0.29 | -0.34 | 0.13 | -0.32 | 0.21 | 1.00 | 0.86 | -0.45 | 0.61 | -0.06 | 0.43 | 0.70 | 0.50 |
| V8 | 0.24 | -0.41 | 0.12 | -0.35 | 0.20 | 0.86 | 1.00 | -0.54 | 0.65 | -0.17 | 0.54 | 0.79 | 0.49 |
| V9 | -0.16 | 0.29 | 0.19 | 0.36 | -0.26 | -0.45 | -0.54 | 1.00 | -0.37 | 0.14 | -0.26 | -0.50 | -0.31 |
| V10 | 0.14 | -0.22 | 0.01 | -0.20 | 0.24 | 0.61 | 0.65 | -0.37 | 1.00 | -0.03 | 0.30 | 0.52 | 0.33 |
| V11 | 0.55 | 0.25 | 0.26 | 0.02 | 0.20 | -0.06 | -0.17 | 0.14 | -0.03 | 1.00 | -0.52 | -0.43 | 0.32 |
| V12 | -0.07 | -0.56 | -0.07 | -0.27 | 0.06 | 0.43 | 0.54 | -0.26 | 0.30 | -0.52 | 1.00 | 0.57 | 0.24 |
| V13 | 0.07 | -0.37 | 0.00 | -0.28 | 0.07 | 0.70 | 0.79 | -0.50 | 0.52 | -0.43 | 0.57 | 1.00 | 0.31 |
| V14 | 0.64 | -0.19 | 0.22 | -0.44 | 0.39 | 0.50 | 0.49 | -0.31 | 0.33 | 0.32 | 0.24 | 0.31 | 1.00 |
Matriz de distância euclidiana
Com os dados originais
Dados padronizados
Distância de Manhattan
Distância de Minkowski
Algoritmos de Agrupamento
Os algoritmos de agrupamentos que serão abordados serão o método hierárquico, e os métodos não hierárquicos k-médias (k-means) e c-médias (c-means).
- Hierárquico
- k-means
- c-means
- PAM
- CLARA
Método Hierárquico
Dendrograma
Pela análise dos dendrogramas, o melhor número de clusters parece ser 3, pois é com 3 ramificações que a altura diminui acentuadamente.
Fazendo uma comparação da clusterização com a variável do tipo de uva, em 14 observações o tipo da uva foi diferente do cluster.
Pelo método hierárquico é possível perceber que alguns itens se misturam com itens de outros clusters. Sendo notável, por exemplo, o 51 que foi classificado como do cluster 2, porém está maios próximo do centro do cluster 1.
Método K-means
Número de clusters
Pela análise dos gráficos percebe-se que o número ótimo de cluster é 3 nos 3 métodos.
Foram necessárias 2 iterações. Os 3 agrupamentos ficaram com os
seguintes tamanhos, respectivamente, 51, 62, 65.
Pela visualização dos clusters é possível notar que nenhum elemento “entra” na região de outro cluster.
Fazendo uma comparação da clusterização com a variável do tipo de uva, em 6 observações o tipo da uva foi diferente do cluster.
Método C-means
Número de clusters
Pela análise dos gráficos percebe-se que o número ótimo de cluster é 2 nos 3 métodos.
Foram necessárias 23 iterações.
Pela visualização dos clusters é possível notar que nenhum elemento
“entra” na região de outro cluster.
Para o C-means é complicado comparar com o tipod e uva pois são 3 tipos de uvas e no C-means foram feitos 2 agrupamentos.
PAM
Número de clusters
Pela análise dos gráficos percebe-se que o número ótimo de cluster é 3 usando os 3 métodos.
[1] "medoids" "id.med" "clustering" "objective" "isolation"
[6] "clusinfo" "silinfo" "diss" "call" "data"
V2 V3 V4 V5 V6 V7
[1,] 0.5904981 -0.4711544 0.15849862 0.3009543 0.01809398 0.6469393
[2,] -0.9246039 -0.5427655 -0.89856839 -0.1482061 -1.38222271 -1.0307762
[3,] 0.3934117 0.8088930 0.04914686 0.6003946 -0.54203270 -0.5833854
V8 V9 V10 V11 V12 V13
[1,] 0.9518166597 -0.81841060 0.47016154 0.01807806 0.3611585 1.2089101
[2,] 0.0007311716 0.06545479 0.06831575 -0.71522236 0.1861586 0.7863692
[3,] -1.2707199546 0.70826598 -0.59560339 1.45017064 -1.7825902 -1.3967588
V14
[1,] 0.5497067
[2,] -0.7522631
[3,] -0.3076880
Pela análise do gráfico é possível observar que essa clusterização não
ficou tão boa, pois há elementos classificados como do cluster 1 dentro
do cluster 2 e vice-versa.
Fazendo uma comparação da clusterização com a variável do tipo de uva, em 16 observações o tipo da uva foi diferente do cluster.
CLARA
Número de clusters
O número ótimo de clusters para o método CLARA também foi 3.
V2 V3 V4 V5 V6 V7
[1,] 0.5904981 -0.4711544 0.15849862 0.3009543 0.01809398 0.6469393
[2,] -0.9246039 -0.5427655 -0.89856839 -0.1482061 -1.38222271 -1.0307762
[3,] 0.3934117 0.8088930 0.04914686 0.6003946 -0.54203270 -0.5833854
V8 V9 V10 V11 V12 V13
[1,] 0.9518166597 -0.81841060 0.47016154 0.01807806 0.3611585 1.2089101
[2,] 0.0007311716 0.06545479 0.06831575 -0.71522236 0.1861586 0.7863692
[3,] -1.2707199546 0.70826598 -0.59560339 1.45017064 -1.7825902 -1.3967588
V14
[1,] 0.5497067
[2,] -0.7522631
[3,] -0.3076880
Pela análise do gráfico da clusterização usando o algoritmo CLARA é
posível perceber o mesmo problema que acontece com o algoritmo PAM. Há
pontos classificados como de um cluster na região do outro cluster.
Fazendo uma comparação da clusterização com a variável do tipo de uva, em 16 observações o tipo da uva foi diferente do cluster.
Conclusão
Pela análise dos resultados visuais dos algoritmos de clusterizações, o método k-means foi o que os clusters ficaram melhor divididos, sem um “invadindo” o outro. Além disso, considerando a variável do tipo de uva foi o método em que os clusters mais se aproximaram do tipo de uva.